import pandas as pd
from plotly import express as px, io as pio
pd.options.plotting.backend = 'plotly'
pio.renderers.default = 'plotly_mimetype+notebook_connected'Análise dos Dados
TODO: Separar o que foi feito no dataset bruto do depois das mudanças
Análises de dados e investigações no Dataset bruto
Descrição de como foi feita a análise(perguntas que foram feitas para a base, possíveis pontos de limpeza, versões do python e bibliotecas)
essa é a parte que viemos fazendo até agora, identificando o que nos será útil da base que escolhemos
output_file = '../data/cursos.csv.zip'
df = pd.read_csv(output_file, dtype={'cod_municipio': int})
df| ano | regiao | uf | cod_municipio | nome_municipio | capital | cod_area | area | curso | rede_publica | presencial | bacharel | ingressantes | ingressantes_fem | concluintes | concluintes_fem | frac_ingressantes | frac_concluintes | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 2010 | Norte | RO | 1100049 | Cacoal | False | 51 | Ciências biológicas e correlatas | Biologia | False | True | True | 21 | 13 | 6 | 4 | 0.619048 | 0.666667 |
| 1 | 2010 | Norte | RO | 1100049 | Cacoal | False | 71 | Engenharia e profissões correlatas | Gestão ambiental | False | True | False | 61 | 26 | 27 | 12 | 0.426230 | 0.444444 |
| 2 | 2010 | Norte | RO | 1100049 | Cacoal | False | 71 | Engenharia e profissões correlatas | Gestão ambiental | False | False | False | 88 | 48 | 10 | 5 | 0.545455 | 0.500000 |
| 3 | 2010 | Norte | RO | 1100064 | Colorado do Oeste | False | 71 | Engenharia e profissões correlatas | Gestão ambiental | True | True | False | 59 | 33 | 23 | 11 | 0.559322 | 0.478261 |
| 4 | 2010 | Norte | RO | 1100122 | Ji-Paraná | False | 71 | Engenharia e profissões correlatas | Gestão ambiental | False | False | False | 109 | 52 | 32 | 15 | 0.477064 | 0.468750 |
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
| 17974 | 2019 | Centro-Oeste | DF | 5300108 | Brasília | True | 71 | Engenharia e profissões correlatas | Gestão ambiental | False | False | False | 25 | 13 | 6 | 3 | 0.520000 | 0.500000 |
| 17975 | 2019 | Centro-Oeste | DF | 5300108 | Brasília | True | 71 | Engenharia e profissões correlatas | Gestão ambiental | False | False | False | 17 | 7 | 9 | 3 | 0.411765 | 0.333333 |
| 17976 | 2019 | Centro-Oeste | DF | 5300108 | Brasília | True | 71 | Engenharia e profissões correlatas | Gestão ambiental | False | False | False | 24 | 8 | 3 | 2 | 0.333333 | 0.666667 |
| 17977 | 2019 | Centro-Oeste | DF | 5300108 | Brasília | True | 71 | Engenharia e profissões correlatas | Gestão ambiental | False | False | False | 48 | 14 | 20 | 2 | 0.291667 | 0.100000 |
| 17978 | 2019 | Centro-Oeste | DF | 5300108 | Brasília | True | 54 | Matemática e estatística | Estatística | True | True | True | 88 | 23 | 23 | 6 | 0.261364 | 0.260870 |
17979 rows × 18 columns
px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='ano', opacity=.75, size='concluintes_fem')px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='regiao', opacity=.75, size='concluintes_fem')px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='uf', opacity=.75, size='concluintes_fem')px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='capital', opacity=.75, size='concluintes_fem')px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='area', opacity=.75, size='concluintes_fem')px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='rede_publica', opacity=.75, size='concluintes_fem')px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='presencial', opacity=.75, size='concluintes_fem')px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='bacharel', opacity=.75, size='concluintes_fem')df['frac_ingressantes'].hist(bins=5)df['frac_concluintes'].hist()